2015/01/04

[Data analytics] 社群網路分析的盲點

source: KDnuggets
社群網路分析(Social Network Analysis, SNA,中文介紹)是隨著 Big Data 熱潮漸漸廣為人知的服務,主要是透過網絡分析、資訊萃取(Information Retrieval, IR)和自然語言處理(Natural Language Processing, NLP)相關的技術,分析網路上人與人的關聯性,以及對於某些主題討論的熱門程度與正負向態度。
當然,隨著技術的進展,未來可能可以提供更多樣的資訊,但是目前在市場上可以看到的 SNA 產品,大抵就是主打上面提到那些跟網路行銷比較相關的功能。

根據 KDnuggets報導,一篇刊登在 Science 上的研究Social media for large studies of behavior)指出,目前社群媒體分析的方法學是有偏頗的,在使用上需要注意會導致偏誤的結論。例如,某種社群平台上的使用者可能都有某種特色,導致分析的取樣有偏誤;平台的設計可能會導致某種訊息比較容易被看到;預設的分析方法可能不適用於所關心的主題...等等。

作者以 1948 年 11月3日的芝加哥論壇報頭條作為引子:當年芝加哥論壇報引進最新潮的「電報分析」來預測美國總統大選,在選舉開票全一天就先印好頭條:Harry Truman 當選,結果與開票結果相反,成了天大的笑話。

KDnuggets 摘出八點在從事 SNA 研究之前最好先確認的幾件事情:
  1. 量化平台本身的偏誤(平台設計、使用族群、平台使用特徵、平台儲存規定) 
  2. 量化「可取得資料」偏誤(平台提供的資料通常有過濾和限制,而非全部資料) 
  3. 量化目標族群跟跟分析對象的差異 
  4. 過濾並修正「非人類產生」的內容 
  5. 修正抽樣族群的誤差 
  6. 修正平台專屬的誤差(平台的過濾器、演算法所造成的誤差) 
  7. 如果是嘗試新的分析方法,記得用同一套資料跟傳統方法做比較 
  8. 如果是嘗試分析新的現象或演算法,要分析幾組不同的資料
個人雖然不是研究社群網路分析研究的,但前一陣子去參加一個資料相關的黑客松,就有一個活生生的例子。

政府每年會公布當年度有標案違約的廠商黑名單(三年內不得參與政府標案),有人就拿這個名單的公司名稱,直接對應過去這些公司所接過所有的標案金額,指稱每個政府單位被A了多少錢。這就像很多社群網路分析工具裡提供「指標」

後來有人補充說明,一家公司(例如精誠資訊,國內最大的資訊軟體廠商)可能接了政府1000個案子,結果有一個違約,就被列入黑名單,如果就此指稱另外999個案子都是A政府的前,並不是很合理的指控。這就是前面提到「平台演算法」設計上的失誤。

當前社群媒體分析很熱門,裡面有很多簡化的公式,提供可以迅速做參考的指標,如果要根據這些指標最進一步推論,最好對這些指標有深入的了解,以免做出錯誤的結論。

沒有留言: